更新时间:2024-06-18 09:53
Nemotron-4 340B,是英伟达全新发布的开源模型。有可能彻底改变训练LLM的方式。
模型简介
Nemotron-4 340B包括基础模型Base、指令模型Instruct和奖励模型Reward,并构建了一个高质量合成数据生成的完整流程。模型支持4K上下文窗口、50多种自然语言和40多种编程语言,训练数据截止到2023年6月。训练数据方面,英伟达采用了高达9万亿个token。其中,8万亿用于预训练,1万亿用于继续训练以提高质量。值得一提的是,指令模型的训练是在98%的合成数据上完成的。Nemotron-4 340B还有一个非常显著的特点——对商用十分友好的许可。